欢迎来到统计学的一次范式转变。我们已经超越了'趋势线'的简单直觉,进入一个严谨的 分布框架。在这里,我们不仅仅用相关系数来定义关系,而是将关系定义为当预测变量 $X$ 变化时,响应变量 $Y$ 的概率行为发生任何变化。
定义 10.1.1:统计纽带
两个变量 $X$ 和 $Y$ 被认为 相关 如果存在 任何 在给定 $X = x$ 时,$Y$ 的条件分布随着 $x$ 改变而发生变化。反之,'无关系'的状态在数学上等同于 $X$ 与 $Y$ 的独立性。
逻辑等价性
当且仅当对所有 $x$ 值都有 $f(y|x) = f(y)$ 时,变量 $X$ 与 $Y$ 才不相关。这意味着联合相对频率函数可分解为:
$$f(x, y) = f(x)f(y)$$
因此,检验关系本质上是对 独立性的检验。
变化机制
关系可以通过条件密度函数的任何偏移来识别(如图 10.1.1 所示)。这包括:
- 均值偏移: 期望值 $E(Y|X)$ 发生变化(最常见的关注点)。
- 方差偏移: $Y$ 的离散程度或不确定性依赖于 $X$(异方差性)。
- 形状变化: 整体分布发生变化(例如,从对称变为偏斜)。
通过实验设计建立因果关系
统计关系并不意味着因果关系。要声称 $X$ 导致 $Y$,我们必须通过 实验设计来考虑混杂变量:
- 对照处理: 提供比较的基准。
- 安慰剂效应: 通过无效治疗减轻感知到的改善。
- 盲法: 使用 单盲实验 (受试者不知情)以及 双盲实验 (受试者和研究人员均不知情)以消除偏差。
- 分块: 如 例 10.1.7中所示,我们使用分块变量(如土壤肥力 $W$)确保小麦类型($X$)与产量($Y$)之间的关系不受先存条件的混淆。
🎯 核心数学估计
我们使用 条件似然 函数来估计这些关系。对于具有频数 $f_{ij}$ 的离散数据:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$
标准误:$SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$